Support InternVL3.5-Flash#3952

Merged

lvhan028 merged 8 commits intoInternLM:mainfrom

CUHKSZzxy:internvl-flash

Sep 17, 2025

Collaborator

CUHKSZzxy commented Sep 9, 2025 •

edited

Loading

Performance & Acc

Test with VLMEvalKit, dataset: ORCBench

Model	Time	Acc
InternVL3.5-8B	~120s	85.2
InternVL3.5-8B-Flash	~115s	84.9

InternVL3.5-FLash acc details

{
"Text Recognition": 249,
"Scene Text-centric VQA": 181,
"Doc-oriented VQA": 165,
"Key Information Extraction": 181,
"Handwritten Mathematical Expression Recognition": 73,
"Final Score": 849,
"Final Score Norm": 84.9
}

Related

Decoupled Vision-Language Deployment support? #3905

CUHKSZzxy added 2 commits

September 9, 2025 21:05


          support internvl flash

075cd45


          clean

18e4abb

lvhan028 added the enhancement label

lvhan028 reviewed

View reviewed changes

lmdeploy/vl/model/internvl.py Outdated Show resolved Hide resolved

lvhan028 reviewed

View reviewed changes

lmdeploy/pytorch/models/internvl.py Outdated Show resolved Hide resolved

lvhan028 reviewed

View reviewed changes

lmdeploy/pytorch/models/internvl.py Outdated Show resolved Hide resolved

lvhan028 reviewed

View reviewed changes

lmdeploy/pytorch/models/internvl.py Outdated Show resolved Hide resolved

lvhan028 reviewed

View reviewed changes

lmdeploy/pytorch/models/internvl.py Outdated

+                      def mlp_block(in_dim, out_dim):
+                          return nn.Sequential(
+                              nn.Linear(in_dim, out_dim),

Collaborator

lvhan028 Sep 10, 2025

Any reason for not using build_rowwise_linear and build_colwise_linear?

Collaborator Author

CUHKSZzxy Sep 10, 2025

https://github.com/InternLM/lmdeploy/blob/main/lmdeploy/pytorch/models/internvl.py#L368

We can. But similar to the above code, as the vision encoding is only executed for once, and also for simplicity, I do not replace it with a custom op.

If you think it's worthwhile to do, I will replace them

lvhan028 reviewed

View reviewed changes

lmdeploy/pytorch/models/internvl.py Outdated Show resolved Hide resolved

lvhan028 reviewed

View reviewed changes

lmdeploy/pytorch/models/internvl.py Outdated Show resolved Hide resolved

lvhan028 reviewed

View reviewed changes

lmdeploy/pytorch/models/internvl.py Outdated Show resolved Hide resolved

lvhan028 reviewed

View reviewed changes

lmdeploy/pytorch/models/internvl.py Outdated Show resolved Hide resolved

lvhan028 reviewed

View reviewed changes

lmdeploy/pytorch/models/internvl.py Outdated Show resolved Hide resolved

lvhan028 reviewed

View reviewed changes

lmdeploy/pytorch/models/internvl.py Outdated Show resolved Hide resolved

lvhan028 reviewed

View reviewed changes

lmdeploy/pytorch/models/internvl.py Outdated Show resolved Hide resolved

lvhan028 requested a review from grimoire

September 10, 2025 04:20

CUHKSZzxy added 6 commits

September 10, 2025 12:39

fix

02cfea4


          fix context update for multi requests

ab0adfc


          dropout to identity, remove clone, fix type


          fix acc, explicit dtype, optimize

de968e7


          get seqlen from context, pass context in post update

c610ff3


          remove self.model_metas

4447ae0

grimoire approved these changes

View reviewed changes

Collaborator

lvhan028 commented Sep 17, 2025 •

edited

Loading

@grimoire may resolve the following warning in PR #3922

/nvme1/lvhan/lmdeploy/lmdeploy/pytorch/kernels/cuda/flatten_kv_cache.py:77: UserWarning: Logical operators 'and' and 'or' are deprecated for non-scalar tensors; please use '&' or '|' instead
/nvme1/lvhan/lmdeploy/lmdeploy/pytorch/kernels/cuda/flatten_kv_cache.py:80: UserWarning: Logical operators 'and' and 'or' are deprecated for non-scalar tensors; please use '&' or '|' instead

lvhan028 approved these changes

View reviewed changes

lvhan028 merged commit 8e0d680 into InternLM:main

5 checks passed

CUHKSZzxy deleted the internvl-flash branch

September 24, 2025 13:05

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels